W ostatnich latach zauważono spadek rozmiaru śledzia. Poniższy raport pokazuje jak zmiany następowały w czasie. Po przeprowadzonej analizie można wywnioskować, że głównymi przyczynami karłowacenia śledzi są wzrost temperatury wód oraz wzrost natężenia połowów w rejonie.
Zbiór danych składa się z 16 kolumn oraz 52582 wierszy. Zawiera informacje o śledziach - szczegoły niżej . Zakładamy, że dane w zbiorze są ułożone w sposób chronologiczny. Podczas wczytania danych, w niektórych kolumnach brakowało wartości co było oznaczone znakiem ‘?’. Aby nie usuwać pozostałych danych na rzecz jednej brakującej komórki, zastąpiono wartości brakujące wartościami sąsiadującymi u góry lub u dołu.
[ double ] X: numer pomiaru;
[ double ] length: długość złowionego śledzia [cm];
[ double ] cfin1: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];
[ double ] cfin2: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];
[ double ] chel1: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];
[ double ] chel2: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];
[ double ] lcop1: dostępność planktonu [zagęszczenie widłonogów gat. 1];
[ double ] lcop2: dostępność planktonu [zagęszczenie widłonogów gat. 2];
[ double ] fbar: natężenie połowów w regionie [ułamek pozostawionego narybku];
[ double ] recr: roczny narybek [liczba śledzi];
[ double ] cumf: łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];
[ double ] totaln: łączna liczba ryb złowionych w ramach połowu [liczba śledzi];
[ double ] sst: temperatura przy powierzchni wody [°C];
[ double ] sal: poziom zasolenia wody [Knudsen ppt];
[ double ] xmonth: miesiąc połowu [numer miesiąca];
[ double ] nao: oscylacja północnoatlantycka [mb].
| length | cfin1 | cfin2 | chel1 | chel2 | lcop1 | lcop2 | fbar | recr | cumf | totaln | sst | sal | xmonth | nao | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :19.0 | Min. : 0.0000 | Min. : 0.0000 | Min. : 0.000 | Min. : 5.238 | Min. : 0.3074 | Min. : 7.849 | Min. :0.0680 | Min. : 140515 | Min. :0.06833 | Min. : 144137 | Min. :12.77 | Min. :35.40 | Min. : 1.000 | Min. :-4.89000 | |
| 1st Qu.:24.0 | 1st Qu.: 0.0000 | 1st Qu.: 0.2778 | 1st Qu.: 2.469 | 1st Qu.:13.427 | 1st Qu.: 2.5479 | 1st Qu.:17.808 | 1st Qu.:0.2270 | 1st Qu.: 360061 | 1st Qu.:0.14809 | 1st Qu.: 306068 | 1st Qu.:13.60 | 1st Qu.:35.51 | 1st Qu.: 5.000 | 1st Qu.:-1.89000 | |
| Median :25.5 | Median : 0.1111 | Median : 0.7012 | Median : 5.750 | Median :21.435 | Median : 7.0000 | Median :24.859 | Median :0.3320 | Median : 421391 | Median :0.23191 | Median : 539558 | Median :13.86 | Median :35.51 | Median : 8.000 | Median : 0.20000 | |
| Mean :25.3 | Mean : 0.4463 | Mean : 2.0255 | Mean :10.004 | Mean :21.218 | Mean : 12.8027 | Mean :28.423 | Mean :0.3304 | Mean : 520367 | Mean :0.22981 | Mean : 514973 | Mean :13.88 | Mean :35.51 | Mean : 7.258 | Mean :-0.09236 | |
| 3rd Qu.:26.5 | 3rd Qu.: 0.3333 | 3rd Qu.: 1.7936 | 3rd Qu.:11.500 | 3rd Qu.:27.193 | 3rd Qu.: 21.2315 | 3rd Qu.:37.232 | 3rd Qu.:0.4560 | 3rd Qu.: 724151 | 3rd Qu.:0.29803 | 3rd Qu.: 730351 | 3rd Qu.:14.16 | 3rd Qu.:35.52 | 3rd Qu.: 9.000 | 3rd Qu.: 1.63000 | |
| Max. :32.5 | Max. :37.6667 | Max. :19.3958 | Max. :75.000 | Max. :57.706 | Max. :115.5833 | Max. :68.736 | Max. :0.8490 | Max. :1565890 | Max. :0.39801 | Max. :1015595 | Max. :14.73 | Max. :35.61 | Max. :12.000 | Max. : 5.08000 |
Powyższy wykres przedstawia, że:
zagęszczenie widłonogów gat. 2 jest skorelowane z zagęszczeniem Calanus helgolandicus gat. 2 oraz Calanus finmarchicus gat. 1
zagęszczenie widłonogów gat. 1 jest skorelowane z zagęszczeniem Calanus helgolandicus gat. 1
łączne roczne natężenie połowów w regionie nie jest skorelowane z łączną liczbą ryb złowionych w ramach połowu
Wykres jednak nie wykazuje, aby któryś z czynników miał wyraźny wpływ na długość śledzia.
wielkość zbioru treningowego: 75% zbioru pierwotnego
metoda schematu uczenia: powtórzona ocena krzyżowa
liczba podziałów: 2
liczba powtórzeń: 5
liczba drzew w lesie (metoda random forest): 10
## Random Forest
##
## 39438 samples
## 15 predictor
##
## No pre-processing
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 19720, 19718, 19719, 19719, 19719, 19719, ...
## Resampling results across tuning parameters:
##
## mtry RMSE Rsquared MAE
## 2 1.140847 0.5243505 0.9025615
## 8 1.104670 0.5551319 0.8685102
## 15 1.198212 0.5002069 0.9412150
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 8.
## rf variable importance
##
## Overall
## sst 100.000
## X 88.231
## fbar 19.086
## recr 16.014
## xmonth 15.448
## totaln 13.906
## lcop1 9.179
## lcop2 6.158
## cfin2 5.236
## cumf 4.089
## cfin1 3.388
## nao 2.576
## chel1 1.996
## chel2 1.329
## sal 0.000
Jak widać na poniższym wykresie najbardziej znaczącym parametrem był sst - temperatura przy powierzchni wody. Drugim był X, jednak jest to numer połowu przez co ignorujemy ten wynik. W efekcie drugim najbardziej znaczącym jest parametr natężenie połowów w regionie, który ma zdecydowanie niższą wartość niż pierwszy.
## Ridge Regression
##
## 39438 samples
## 15 predictor
##
## No pre-processing
## Resampling: Cross-Validated (2 fold, repeated 5 times)
## Summary of sample sizes: 19719, 19719, 19719, 19719, 19718, 19720, ...
## Resampling results across tuning parameters:
##
## lambda RMSE Rsquared MAE
## 0e+00 1.330267 0.3530193 1.051281
## 1e-04 1.330266 0.3530201 1.051281
## 1e-01 1.344208 0.3395471 1.063184
##
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was lambda = 1e-04.
## loess r-squared variable importance
##
## Overall
## X 1.000e+02
## sst 7.470e+01
## nao 2.442e+01
## fbar 2.306e+01
## lcop1 2.015e+01
## chel1 1.733e+01
## cfin2 3.565e+00
## totaln 3.380e+00
## cfin1 2.333e+00
## lcop2 9.246e-01
## sal 3.365e-01
## chel2 5.623e-02
## recr 2.162e-02
## xmonth 1.096e-03
## cumf 0.000e+00
Jak widać po zignorowaniu parametru X (numer pomiaru), najbardziej znaczącym parametrem znowu jest temperatura przy powierzchni wody. Innymi ważnymi były parametry nao, czy jak w poprzednim badaniu parametr fbar - natężenie połowów w regionie.